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单词 统计 特性 在 情感 词 自动 抽取 和 商品 评论 分 类 中 的 作用 
韩 形 晖 ， 杨 东 强 ， 马 宏伟 


(山东 建筑 大 学 计算 机 科学 与 技术 学 院 , 济南 250100) 


Jj 要 : 单词 的 统计 特征 在 自然 语言 处 理 中 具有 广泛 的 应 用 。 针 对 统计 特征 对 关键 词 抽 取 和 文本 分 类 精确 度 的 影响 ， 
分 析 了 八 种 常见 的 统计 特征 ， 通 过 情感 词 抽 取 和 商品 评论 分 类 ， 研 究 统 计 特 征 在 情感 分 析 领 域 中 的 作用 。 情 感 词 提取 
实验 的 结果 表明 ， 通 过 结合 统计 特征 与 词性 ， 情 感 词 提取 的 准确 率 能 够 达到 76.4%， 显 著 高 于 基于 统计 特征 或 单词 词 
性 的 情感 词 提 取 算 法 。 商 品评 论 分 类 的 测试 结果 表明 ， 与 传统 的 基于 单词 的 文本 情感 分 类 相 比 ， 基 于 统计 特征 的 商品 
评论 分 类 的 准确 率 提 高 了 10.8%。 利 用 八 种 统计 特征 构造 文本 向 量 空间 模型 ， 替 代 基 于 单词 构造 文本 向 量 空间 模型 的 
方法 ， 能 够 降低 文本 向 量 的 维度 ， 具 有 隐形 语义 空间 (LSA/SVD) 的 压缩 效果 ， 在 保证 分 类 结果 准确 率 的 前 提 下 有 效 降 
低 了 算法 的 复杂 度 ， 能 够 替代 传统 的 向 量 空间 模型 。 
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Using lexical statistical features in extracting sentimental words 
and classifying product reviews 


Han Tonghur Yang Dongqiang, Ma Hongwei 
(School of Computer Science and Technology Shandong Jianzhu University, Jinan 250100, China) 


Abstract: The statistical features of words are widely used in Natural Language Processing. This paper summarizes eight types 


of statistical features, and studies the role of these features in extracting sentimental words and classifying product reviews. 


Sentiment words extraction result showed that combining these statistical features and PoS tags of words can achieve much 
higher extraction accuracy than other methods with precision of 76.4%. Product reviews classification results showed that in 
contrast with sentimental words in constructing the feature space, exclusively using these 8 kinds of statistical features can 
improve classification precision by 10.8%. Different from the multi-dimensions of lexical elements in the vector space models 
(VSM) , this paper only employed these 8 types of statistical features in representation of words or documents, which has the 
ability that can lower the VSM's dimension and can effectively derive the latent semantic space without expensive time and 
space complexity of SVD calculation. 
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0 al 言 环境 中 情感 词 不 只 局 限于 形容 词 。 单 词 统计 特征 的 使 用 不 仅 
能 够 打破 词性 和 文本 领域 依赖 性 的 限制 ， 对 不 同 语种 也 具有 较 
文本 情感 分 析 作 为 自然 语言 研究 领域 的 热点 之 一 ， 在 与 情 。 好 的 适应 性 中 。 
分 析 与 控制 ， 商 品评 论 系统 中 具有 重要 应 用 。 情 感 词 抽取 是 文 本 文 分 析 了 八 种 自然 语言 处 理 领 域 常见 的 单词 统计 特征 ， 
本 情感 分 析 的 基础 , 其 中 , 抽取 精度 和 范围 是 情感 词典 构造 器 、 通过 情感 词 抽 取 和 商品 评论 分 类 ， 研 究 这 些 统计 特征 在 情感 分 
文本 情感 分 类 P23 和 情感 强度 计算 外 等 应 用 的 基础 。 以 语法 规则 。” 析 领域 中 的 作用 。 情 感 词 提 取 结 果 表 明 ， 结 合 统计 特征 与 单词 
为 基础 的 情感 词 抽取 算法 是 一 种 易于 实现 的 情感 词 自动 抽取 算 词性 的 情感 词 提取 算法 的 提取 精度 显著 高 于 其 他 常用 算法 。 诊 
法 ， 其 中 ，QiuD 根 据 单词 之 间 的 概率 关系 ， 挖 掘 情感 词 与 主题 。 品评 论 分 类 的 实验 结果 表明 ， 以 八 种 统计 特征 为 基础 构造 的 低 
词 的 语法 联系 ,同步 扩充 情感 词 集合 和 主题 词 集合 ，Liul9 在 语 。 维 向 量 空间 模型 能 够 提高 分 类 器 的 准确 率 并 能 够 有 效 降低 分 类 
法 规则 的 基础 上 通过 引入 语义 相似 性 ， 改 进 算法 的 效率 。 上 述 ”算法 的 时 间 和 空间 复杂 度 。 
情感 词 提取 方法 的 范围 仅仅 局 限于 形容 词 ， 但 是 ， 在 实际 的 语 
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1 ”相关 研究 
单词 的 统计 特征 以 数值 的 形式 反映 单词 同文 类 型 2 


间 的 关 


联 性 , 这 种 关联 性 能 够 作为 提取 关键 词 的 依据 。 点 互信 息 四 PMI: 
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存放 单词 的 分 布 信息 ， 其 中 9, 表示 包含 w 的 积极 性 文本 的 频 
率 ，4, 表示 不 包含 w 的 积极 性 文本 的 频率 , q, « d, 为 积极 性 文本 
的 频率 ， 同 理 4, 与 和 表示 w 在 消极 性 文本 中 的 分 布 信息 ， 
和 +9 为 消极 性 文本 的 频率 ， 表 1 列举 了 特征 值 计算 过 程 中 使 


pointwise mutual information) 算 法 是 一 种 典型 的 基于 统计 特征 
的 情感 词 提取 算法 , 该 算法 还 能 够 根据 被 提取 单词 的 PMI 值 来 
判断 单词 的 情感 极 性 。Aliakseilb2 将 语料库 中 出 现 的 单词 作为 特 
征 ， 利 用 线性 分 类 算法 对 测试 文本 进行 情感 分 类 ， 通 过 调整 参 
数 向 量 优化 分 类 结果 ， 当 分 类 结果 达到 最 优 时 ， 将 每 个 特征 对 
应 的 参数 作为 提取 情感 词 的 标准 。Yu09 认 为 情感 词 对 文本 情感 
极 性 的 贡献 值 远 大 于 非 情 感 词 ， 因 此 在 已 知 文本 情感 极 性 的 前 
提 下 ， 计 算 单 词 在 文本 内 的 权重 ， 并 根据 权重 提取 情感 词 。 上 
述 算法 的 实现 过 于 复杂 , 且 基 于 PMI 的 情感 词 提取 算法 在 个 别 
领域 的 文本 可 靠 性 不 强 。 


L- 


文本 情感 分 类 根据 单词 在 文本 中 的 分 布 特征 训练 分 类 模型 ， 


可 以 将 情感 词 作 为 特殊 的 关键 词 构造 文本 的 向 量 表 达 。 因 此 ， 
基于 统计 特征 的 关键 词 提取 算法 同样 适用 与 抽取 情感 词 , 例如 ， 
增益 作为 提取 关键 词 的 依据 ，Uysall 使 用 
信息 增益 、 让 步 比 、 基 尼 系 数 在 文本 中 提取 关键 词 。 McAuley03 


Rajeswaril0 将 信息 


到 的 概率 近似 公式 。 


— 


表 1 概率 近似 公式 


在 LDA 模型 的 基础 上 挖掘 文本 内 的 潜在 关键 词 ，Chent'41 通 过 
LDA 模型 在 文本 中 挖掘 关键 词 , 并 根据 关键 词 的 频率 分 布 对 其 
进行 分 类 处 理 。Mesleht151 使 用 卡 方 测试 为 单词 赋予 权重 ， 并 根 
据 权 重 提取 关键 词 , Mitralg 将 单词 与 文本 之 间 的 相关 系数 作为 
特征 提取 的 主要 依据 , Juola07 利 用 交叉 焙 计 算 文本 同 单词 之 间 
的 关联 性 ， 根 据 关 联 强度 挖掘 关键 词 。 虽 然 单词 的 统计 特征 能 
够 直观 的 反映 单词 同文 本 类 型 之 间 的 关联 程度 ， 但 是 基于 统计 
特征 提取 关键 词 面临 着 阔 值 确定 的 问题 。 
本 文 分 析 了 八 种 常见 的 统计 特征 在 情感 词 抽取 和 文本 情感 
分 类 中 的 作用 。 实 验 中 使 用 基于 机 器 学 习 的 方法 进行 文本 情感 


分 类 ， 以 检验 基于 八 种 统计 特征 构造 的 向 量 空间 模型 对 分 类 算 
法 的 优化 能 力 。 
2 ”特征 值 计算 与 数据 表达 

本 文 依次 研究 信息 增益 (IG: information gain)、 优 势 比 (OR: 


odds ration)、 互 信息 (MI: mutual information)、 对 数 概率 比 (LPR: 
logarithmic probability ratio). ^: X (CC: cross entropy)、 卡 方 检 
测 (CHI: chi-squire test)、 相 关系 数 (CC: correlation coefficient) fll 
差异 性 分 布 (DD: differential distribution) 在 情感 词 抽取 和 商品 评 
论 分 类 中 的 作用 。 
2.31 特征 值 计 算 
使 用 C 表示 文本 情感 类 型 ，CE {pos, neg}, pos 为 积极 性 
情感 ，neg 为 消极 性 情感 ，P(C) 表 示 文 本 的 情感 类 型 为 C 的 概 
率 ,P(C) 表 示 文 本 情感 类 型 为 非 C 的 概率 ,其 中 ,P(C)=1-P(C)。 
使 用 字母 了 表示 表示 文本 ， 字 母 w 表示 单词 ，P(w) 表 示 在 7 中 
包含 w 的 概率 ,P(w) 表 示 7T 中 不 包含 w 的 概率 ,P(w)=1-P(w)。 


为 了 便于 计算 单词 的 统计 特征 , 本 文 创建 四 元 组 8,=(4,,4,,4,.4,)， 


类 型 近似 表达 
N qy * d,» 中 dn + d, 
P(w) (a, + q,)/N 
P(C) C= pos : (2,5, )/N C-neg: (a.a, )]N 
P(v|c) C- pos : a, [(a,*4,) C-neg : a, /(,*4,) 
P(w|c) C- pos : afla, *q,) C-neg : afla, 4) 
P(w.C) C - pos : q,/N C=neg: q,[N 
P(wc) | Cep: q,N C=neg: q,N 
P(w.c) C=pos: q,/N C=neg: q,ÍN 
P(w.c) C - pos : G/N C=pos: gl 
P(c|w) C- pos : 4, (a,*4,) C - neg : 4,[(a,*4,) 
P(c]») C- pos : a,[ (d, *q,) Cz pos : a,[(4,*4.) 
1) 信息 增益 (IG) 
单词 的 信息 增益 表示 单词 携带 的 用 于 区 分 文本 情感 类 型 的 
信息 量 ，w 的 信息 增益 越 大 ， 则 表明 其 区 分 文本 情感 极 性 的 能 
力 越 强 。IG 的 计算 公式 如 下 : 


IG(w)= 二 "omm P(C)xlog ^c) 和 


Q) 
| Eno. E, nemen] 


2) 改进 的 让 步 比 (OR) 
让 步 比 反映 单词 影响 文本 情感 极 性 的 能 力 ， 让 步 比 的 绝对 


值 越 高 , 表明 单词 影响 文本 情感 极 性 的 能 力 越 强 。 OR 的 计算 公 
式 如 下 : 
A LC) 
c E s PCw :|c)]xe(w le ) 2) 
3) HAS (MI) 


互信 息 指 单词 携带 的 能 够 反映 文本 情感 类 型 的 信息 量 ，m 
的 互信 息 越 高 ,表明 其 携带 的 信息 量 越 大 .MI 的 计算 公式 如 下 : 


P(w.c) PQw|c) 
"use S = log RE (3) 


最 终 , w 的 MI 值 为 W0)= max {mi(wc)}， 


Ce{pos,neg} 


4) 改进 的 对 数 概率 比 (LPR) 
对 数 概率 比 类 将 单词 在 积极 性 和 消极 性 文本 中 出 现 概率 的 
对 数 比 值 作为 衡量 单词 携带 信息 量 的 标准 ， 对 数 概 率 比 的 绝对 


值 越 大 ，w 区 分 文本 情感 极 性 的 能 力 越 强 。LPR 的 计算 公式 如 
下 : 
PCw|c) 
LPR(w)2PCw)x lo — 4 
EIC i 


5) Z XLAG(CE) 
AE SCR FT dS 


述 单词 在 积极 性 和 消极 性 文本 之 间 的 分 布 差 
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异 , w 具有 较 高 的 交叉 烂 ， 则 表明 其 在 两 种 不 同 极 性 文本 中 
的 分 布 差异 越 明 显 , 成 为 情感 词 的 概率 越 高 。CE 的 计算 公式 如 
Ti 


cE(w)=P(w)x Y rel) EN (5) 


Cel pos, neg] P(w 
6) 改进 的 卡 方 检测 (CHD 
上 E 方 检测 用 于 测试 单词 与 文本 情感 类 型 之 间 的 关联 程度 ， 
在 计算 过 程 中 ， 假 定单 词 和 文本 类 型 之 间 服 从 自由 度 为 1 的 卡 
方 分 布 。 卡 方 值 越 高 ， 表 明 w 与 文本 情感 类 型 的 关联 度 越 高 ， 
其 成 为 情感 词 的 概率 也 越 大 。CHI 的 计算 公式 如 下 : 


2 (AxD-ExB) 
wW, - wJx 6 
ROB (A E)x(B« D)x(A« B)x(E«D) (©) 


其 中 : 4 表示 情感 类 型 为 C， 并 且 包 含 w 的 文本 的 数量 ，B 表 

示 情 感 类 型 为 非 C， 并 且 包 含 w 的 文本 的 数量 ，E 表示 情感 类 
型 为 C, 并且 不 包含 w 的 文本 的 数量 ; D 表示 情感 类 型 为 非 C, 
且 不 包含 w 的 文本 的 数量 。 最 终 ,，w 的 CHI 值 为 : 


x (w)= max fe (wo), 


cet pos,neg} 


7) 相关 系数 (CC) 

相关 系数 表示 单词 和 文本 情感 极 性 之 间 的 相关 程度 ， 相 关 
系数 越 大 , 表明 单词 区 分 文本 情感 的 能 力 越 强 。 CC 的 计算 公式 
如 下 : 


et Ce) 
Gc) rGOr(w)eCo)r(c) (7) 


8) 差异 分 布 (DD) 
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布 信息 , 构造 四 元 组 Que, 统计 结果 显示 , 包含 'good 的 积极 性 
和 消极 性 文本 频率 分 别 为 9974、5978， 不 包含 'good' 的 积极 性 
和 消极 性 文本 频率 分 别 为 23400、27464, 即 q, =9974、 q, =23400、 
9, =5978、g, =27464， 因 此 Qww=<9974,23400,5978,27464>。 将 
Qem 带 入 表 1， 得 到 计算 "good" 信 息 增益 所 需 的 相关 概率 ， 计 算 
结果 如 表 3 所 示 。 


表 2 使 用 标准 让 步 比 计算 方法 与 改进 的 让 步 比 计算 方法 计算 的 部 分 
单词 的 OR 值 和 这 些 单词 在 特征 值 列 表 内 的 序号 


标准 的 OR 算法 


改进 的 OR 算法 


单词 


OR 值 排序 OR 值 排序 
wtf 0.0016 932 
yellow 0.0017 841 
penny 0.0055 256 
great 0.3461 1 
love 0.3156 2 
good 0.1604 5 


表 3 概率 计算 结果 


P(good) P(pos|good) 


F( good) 0.7613 P(neg|good) 
P(pos) 0.4995 P(posggod) 0-4601 
P(neg) 0.5005 P(weglegod) — 0.5399 


将 上 述 概率 代入 式 (1)， 得 到 IG(good)-1.0003 。 
2.2 情感 词 自动 提取 

情感 词 的 提取 过 程 的 实质 是 对 连续 型 特 和 
跟 据 统计 特征 将 单词 分 配 到 情感 词 或 非 情 感 词 集合 中 。 为 了 快 
速 合理 的 划分 单词 集合 , 采用 SDR (standard deviation reduction) 
0 算法 划分 单词 集合 ， 确 定 统计 特征 对 应 的 阔 值 。SDR 算法 采 


E 做 离散 化 处 理 


差异 性 分 布 将 单词 在 积极 性 和 消极 性 文本 之 间 的 分 布 差异 
作为 衡量 单词 情感 极 性 的 标准 , 如 果 w 在 C 类 文本 中 的 频率 明 
显 高 于 (或 低 于 ) 其 在 非 C 类 文本 中 的 频率 ， 则 表明 w 成 为 情感 
词 的 可 能 性 越 大 ， 且 w 的 情感 极 性 与 文本 的 情感 极 性 相同 (或 
相反 )。DD 的 计算 公式 如 下 : 


|P Cpos |w) — P Cneg |w)] 
Gjer Gijs cuu MC 
< li " aes i „te (Cclw)} (8) 


分 母 取 P(pos|w)5E P(neg|w) WREKE, DD HRE 
范围 为 [-1,1], 乘 以 概率 P(w) 的 目的 是 为 了 降低 噪声 对 DD fü 


于 标准 的 让 步 比 、 对 数 概 率 比 和 卡 方 检测 算法 倾向 于 给 
低频 率 单词 赋予 较 高 的 权重 ， 使 得 大 量 低频 非 情感 词 具 有 较 高 
的 权重 ， 从 而 影响 算法 的 可 靠 性 。 为 了 提高 算法 的 可 靠 性 ， 本 
文 在 标准 算法 的 基础 上 乘 以 单词 概率 P(w). 

以 让 步 比 为 例 ， 表 2 列举 了 一 组 单词 的 OR 值 以 及 在 特征 
值 列 表 内 的 排列 顺序 。 由 表 2 可 知 ， 让 步 比 算法 改进 前 后 ， 单 
词 在 特征 值 列表 中 的 排列 顺序 变化 较为 明显 。 基 于 让 步 比 的 情 
感 词 提取 实验 表明 , 与 基于 标准 让 步 比 的 情感 词 提 取 算 法 相 比 ， 
基于 改进 让 步 比 的 情感 词 提取 算法 的 准确 率 提 高 了 17.896. 

上 述 特征 值 的 计算 过 程 基本 相似 ， 本 文 以 计算 单词 "good' 
的 信息 增益 为 例 , 介绍 特征 值 的 具体 计算 方法 。 根据 'good’ 的 分 


动态 方式 将 单词 分 配 到 相应 的 集合 中 ， 分 配 操作 结束 后 ， 计 
算 该 次 分 配 的 误差 缩减 量 ， 当 误差 缩减 量 达到 最 大 时 ， 表 明 分 
配 结果 达到 最 优 。 算 法 公式 如 下 : 


Suse: 


ped) ni "IG ) © 


其 中 : Lo 表示 由 候选 情感 词 的 特征 值 组 成 的 列表 ，Z 中 的 元 素 
按照 特征 值 递 减 的 顺序 排列 ，L; 表示 情感 词 特 征 值 列表 ，L 表 
示 非 情感 词 特征 值 列表 , L=LytL。|*| 表 示 和 集 合 或 列表 中 元 素 的 
数量 ，sd(*) 为 标准 差 函 数 。 当 value 达到 最 大 值 时 ， 对 情感 词 
和 非 情感 词 的 划分 达到 最 优 , 此 时 La 内 的 最 大 特征 值 即 该 统计 
特征 对 应 的 闽 值 。 算 法 1 描述 了 SDR 的 执行 过 程 。 

为 了 演示 SDR 的 执行 过 程 , 以 信息 增益 为 例 , 创建 包含 10 
个 信息 增益 的 样本 列表 工 , 通过 SDR 确定 样本 的 闵 值 。 TEL rp 
按 信息 增益 递减 的 顺序 排列 ， 如 表 4 所 示 。 首 先 将 样本 集合 S 
划分 为 两 个 列表 ， 即 情感 词 特征 值 列表 L= {Gason t) ME 
感 词 特征 值 列表 L,(={IGrappy~IGwen }) Æ Ls RI L, 中 ， 按 元 素 值 
递减 的 顺序 排列 。 在 算法 执行 过 程 中 , 若 value V WE, 使 
更 新 变量 V, 并 且 , 通过 闷 中 最 大 的 特征 值 更 新 变量 threshold . 
当 算 法 执行 结束 时 ，threshol4 的 取 值 就 是 在 工 中 抽取 情感 词 的 
BIB. 

算法 1 


value = sd(L)— I] 


] value 
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输入 : 特征 列表 IK， 情 感 词 特征 值 列表 工 ,和 非 情 感 词 特征 


值 列表 工 ,, 其 中 ， 


Urol 


一 人 Jo- 


过 程 : 
1. 创建 变量 : V=-1, threshold =Y; 
2- for |Lj^1 do 
3. WESEL. LV Ln HERNES sd(L). sd(L;)fll sd(L,); 
4. Hi sd(L). sd(L, Vl sd(L,)nir A 233X(12). 计算 value; 
5. if  value- V then 
V—value, — threshold- max TA. 
f end if 7 
8. fo max {fs 
9 将 fnx 存 入 列表 L， 并 在 列表 La PIER an 


10. end for 
输 出 : 


计算 K、Ls 和 ,的 标准 差 和 列表 长 度 ， 
标准 差 sd(Ly-0.2254, K| L FI10; 


threshold 


sd(Ls)~0.0， 列 表 长 度 | Ls | 为 =1; 
sd(L,)-1.861, Ade BE| Ls | 为 9。 


计算 得 到 valuez0.0579, 354 value 赋值 给 V, Y& La n 


3E T 


大 值 IGnappy 添加 到 Lss Bp L={ IG aisappoint, IGnappy y, 


threshold=[Ghappy , 


最 后 , 在 L, P H 


Le IGperee~IGwen }。 程 序 的 最 终 执行 
本 的 最 佳 闷 值 为 0.8053 。 


单词 IG 单词 IG 
disappoint 1.3370 best 0.7816 
happy 1.2387 fast 0.7441 
perfect 1.1125 awesome 0.7276 
good 1.0003 stop 0.7266 
amaze 0.8053 well 0.6931 
本 文 对 被 提取 的 单词 做 如 下 定义 : 若 基于 单一 统计 特征 


a( € {IG,OR,MLLPR,CE,CHI,CC,DD}) 提 取 情 感 


| 除 IGnappy , 


HRE 


表 4 单词 样本 


得 到 ， 样 本 整 
情感 词 列表 的 标准 差 
词 列表 的 标准 闫 


体 的 


的 最 


得 到 
果 显示 该 信息 增益 LEE 


词 ，a XM RE 


为 0，w 关于 a 的 特征 值 为 1。 若 />0， 则 认为 w 是 情感 词 ， 


TK w 满足 统计 特征 ao 
除了 测试 使 用 单一 特征 提取 情感 词 的 效果 ， 本 文 还 测试 了 
基于 多 统计 特征 的 情感 词 提取 方法 。 实 验 根据 研究 的 统计 特征 
的 数量 设置 了 8 种 提取 标准 ， 依 次 为 C_1~C_8， 其 中 , C iie 
[1,8]) 要 求 被 提取 的 单词 至 少 满足 i 种 统计 特征 。 
2.3 情感 分 析 中 的 数据 表示 
基于 2.1 中 介绍 的 统计 特征 创建 单词 的 特征 向 量 ， 实 现 单 
词 的 向 量 表示 ， 向 量 的 格式 如 下 : 
v aged dad dut 
其 中 : 向 量 元 素 fi~fp 依 次 对 应 八 种 统计 特征 。 
利用 语义 组 合 中 的 向 量 加 函数 构造 向 量 空间 模型 ， 通 过 特 
征 向 量 表示 文本 ， 向 量 空间 模型 的 构造 方式 下 : 
Vi sig (w,)x V (10) 


其 中 ; wi; 表示 在 情感 词 中 编号 为 i 的 单 


有 词 号 ,sig(wi) 为 符号 函 


数 ， 


当 wi 在 T 中 出 现时 sig(w)=1, BU sig(w)=0, Vi 表示 wi 对 应 


的 单词 向 量 ， 最 终 ， 可 以 通过 向 量 Vy 表示 文本 ， 
细 介 绍 了 文本 向 量 的 构造 过 程 。 


在 4.3.2 中 详 


AUR, 


ChinaXiv& TERBT B 


: 单词 统计 特性 在 情感 词 ne 论 分 类 中 


3 ”情感 词 提取 与 商品 评论 分 类 


虽然 中 文 购物 网 
文 分 词 工 具 一 定局 限 


站 提供 了 大 量 商 品评 论 ， 但 是 ， 现 有 的 中 
性 09， 并 且 这 些 评论 中 广告 信息 和 虚假 评 


论 比重 较 大 。 因 此 ， 
际 效果 。 英 文 评论 


采用 中 文 商品 评论 难以 有 效 验证 算法 的 实 
能 够 降低 分 词 错误 对 算法 的 影响 ， 并 且 ， S 


马 壕 购物 网 站 提供 的 英 


英文 商品 评论 信息 相对 也 更 加 真实 。 因 此 ， 


实验 采用 亚马逊 英文 网 站 提供 的 商品 评论 ， 其 中 积极 性 评论 
33374 条 ， 消 极 性 评论 33442 条 。 


3.1 文本 预 处 理 


在 网 站 内 采集 的 


商品 评论 包含 大 量 停止 词 和 单词 缩写 ， 因 


此 ， 需 要 对 这 些 数据 进行 预 处 


里 ， 操 作 步 又 如 下 : 


a) 文本 规范 化 aormalization)。 将 大 写字 母 转换 为 小 写字 母 ， 


过 虑 特殊 符号 (如 : #、 


蔡 换 为 正规 格式 (如 ; 


@) 和 停 用 词 (如 : this, that), 将 单词 缩写 
that"s 一 thatis)， 将 否定 性 副词 统一 替换 为 


not( 如 : hardly— not). 
b) 词 干 处 理 (stemming)。 若 单词 以 名 词 复 数 、 形 容 词 比较 级 、 


动词 过 去 式 等 形式 出 现 ， 则 


better— good). 


c) 词 组 抽取 。 多 个 连续 的 单 


将 该 单词 还 原 (如 issues 一 issue、 


词 之 间 存 在 语法 联系 ， 使 得 这 


些 连续 的 中 性 词 具 有 表达 情感 的 能 力 , 如 meet my expectation, 


not buy again 等 。 本 文 根 据 单词 
候选 词 列表 构造 : 构造 候选 情感 词 
者 作为 候选 情感 
复出 现 的 单词 和 短语 ; 
过 虑 频率 低 于 的 单 


d 
的 单词 和 短 i 


— 


间 的 语法 联系 抽取 情感 词组 。 
IR L, 将 文本 中 出 现 
词 存储 在 列表 工 F, L 内 不 包含 重 


3 


词 ， 本 实验 将 8 设置 


e 频 率 限 制 : 
35; 
表 5 展示 了 预 处 理 前 后 , 评论 


集合 中 单词 总 量 以 及 形容 词 、 


动词 、 名 词 、 副 词 的 数量 变化 。 


表 5 


预 处 理 


前 后 语料库 中 单词 的 数量 变化 


预 处 理 之 前 


预 处 理 之 后 


部 分 单词 及 其 特征 分 布 (加 粗 部 分 表示 满足 


word token word word token word 
464686 29443 206331 512 
1009911 29513 85451 228 
1086026 30281 630252 1596 
431654 27807 105066 191 
2855588 25121 633362 2758 
2378824 23907 546016 2758 
5234412 34328 1179378 2761 


形容 词 
动词 
名 词 
副词 
积极 类 文本 的 词汇 
消极 类 文本 的 词汇 
语料库 的 词汇 
表 6 
单词 
Tuck 7 
awful 0.0084. 
cheap adj 0.0164 0.0069 
refuse. v 0.0814 0.0066 
nice adj 0.3661 0.0394 
great adj 4.6086 0.3461 
love v 5.0430 0.3156 


3.2 RRR 


ENUT DES EEE 
0.007 0.0019 


Y 0.0043 
04 0.0083 


0.0043 


0.0021 


0.0032 0.0067 0.0019 678 0.0060 
0.0042 0.0066 2.6427 0.0015 { 0.0039 
0.0152 0.0376 11.4454 0.0558 1.8535 0.0258 
0.0974 0.2769 1.7177 3.2030 76.6667 0.1569 
0.0833 0.2748 4717 2.3952 78.6123 0.1289 


四 元 组 计算 


和 条 件 概 率 。 


单词 在 文本 中 出 现 的 概率 、 文 本 的 情感 类 


型 为 积极 或 消极 的 概率 、 单 词 同 文本 情感 类 型 之 间 的 联合 概率 
创建 特征 


值 列表 Lj~Ls 依 次 存储 单词 和 单词 的 8 


种 类 型 的 特 


F 值 ， 


上 且 在 特征 值 列表 中 单词 按照 特征 值 递 减 的 
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) 


建 变量 Oah 


项 序 排 列 。 调 


佳 确 率 为 54.5%， 


依次 存储 八 种 统计 特 乞 


43 [n 


] SDR 算法 , ib SERE RERE RE, 


创 


率 为 27.7%。 


3.2.1 基于 单一 统计 特征 提取 情感 词 


根据 选取 的 统计 特征 a 


E 对 应 的 闵 值 。 该 实验 将 
基于 单词 词性 的 情感 词 提 取 算 法 作为 实验 基线 ， 其 中 该 算法 的 


创建 情感 词典 Da / 


于 存放 基于 a 


提取 的 情感 词 ， 查 找 该 统计 特征 对 应 的 特征 值 列 表 和 闵 值 ， 遍 


历 特征 值 列 表 ， 


系 ， 若 单词 的 4 
束 后 ， 词 


村 


将 词典 初始 


间 的 数 
增益 ， 将 该 单词 存 入 词 
增益 IGuaee=0.1033， 单 词 'refuse” 的 
T IGuoe>br， 将 "uck 存 入 Dio; 


被 过 滤 。 
3.2.2 基于 多 统计 特征 提取 情感 词 


VERE 


IET E SHIP 
根据 3.2 的 提取 标准 C 1-C 8 
E 为 被 提取 单词 创建 向 量 表达 。 算 法 2 


比较 列表 内 单词 的 特征 值 与 闷 值 之 间 的 数值 关 
E 值 大 于 阐 值 ， 将 该 单词 存 入 词典 ， 
册 内 的 单词 即 为 被 提取 的 情感 词 。 

以 基于 信息 增益 的 情感 词 提取 算法 为 例 ， 创 建 词典 


当 遍 历 结 


韩 彤 晖 ， 等 : 单词 统计 特性 在 情 


V 


ofise = (0.0164, 0.0069, 0.0032, 


ChinaXi 
感 词 自动 抽取 和 商品 评论 分 类 中 的 人 


0.0067, 9.3314, 0.0019, 4.6780, 0.0060) 


将 Tefuse" 和 向 量 Vw 存 入 词典 DI~D3， 并 从 候选 词 列表 


中 删除 refuse"。 之 后 ， 程 序 判 
列表 非 空 ， 从 候选 情感 词 列 表 


断 候 选 情感 词 列表 是 否 为 空 ， 若 
中 抽取 单词 ， 并 逐步 判断 该 单词 


是 否 为 情感 词 ， 否 则 ， 结 束 程 


F o 


3.2.3 结合 统计 特征 与 单词 词性 提取 情感 词 


结合 单一 统计 与 单词 词性 
于 对 应 阔 值 且 单词 为 形容 词 ， 


足 信息 增益 ， 


Dic; 
化 为 室 ， 信 息 增 益 对 应 的 特征 值 列 表 为 Zr， 净值 
0n 2 


为 00-0.1017 . 遍历 Ln， 并 比较 列表 内 单词 的 信息 增益 与 
和 下 关系 ， 若 单词 的 信息 增益 大 于 bp ， 即 该 单词 满足 信 
表 6 可 知 ， 单 词 'luck’ 的 信 


t Dic. 


Fi 息 增 E IGretuse-0.081 


特征 的 情感 词 提取 算法 的 执行 过 程 。 


情感 词 列 表 中 读 取 ”refuse"， 并 将 变量 了 工 初始 化 为 0。 遍历 特征 
值 列 La~ Lj REFR refuse If] 8 种 特征 值 AA 
f o gré ESSERI BOB OO 进行 数 
E 57*-0, CE[18])， 则 变量 H. 


算法 2 


El 
Pru 
El 
JU 


4. 


uq IGretuse «0i , AHE refuse’ 


E 提 取 情 感 词 ,要 求 被 提取 的 单词 满足 至 少 。 
结合 提取 情感 词 ， 并 利用 8 种 统 


展示 了 基于 多 统计 


输入 : 特征 值 列表 La- Lgs 候选 情感 词 列 表 L: MEE bx 08 


过 程 : 


1l. 根据 提取 标准 C_1~C_8 创建 词典 DI-DS; 
2. for wEL do 
3 1-0; 


查找 w YE La~ Ls 内 对 应 的 8 种 特征 值 A ems 
for ;-1.2.:*.8 do 


if 75" -60& then 


end 


if 
for 


I+=1 


0. if I=n(nE[1.8]) then 


end 
end for 


输出 : 


4 
5 

6 

7. 

8. end 
9 

1 

1 

1 

1 

1 


if 


词典 D1~D8 


利用 f* - 各 构造 w 的 特征 值 向 量 Vus 
将 w 和 万 , 存 入 词典 DI-Dn; 


以 提取 单词 YrYefuse’ 的 过 程 为 例 ， 介 绍 该 算法 。 程 序 从 候选 


„refuse 
"1 Fi 3 m 


分 别 将 
值 比 较 , 在 比较 过 程 中 ， 
表 6 可 知 ，’refuse’ 同 


时 满足 OR、MI 和 CC,， 当 数值 比较 结束 后 ,得 到 /=3。 判断 I 


0 是 否 


Di , 


于 条 件 成 立 ， 因 此 利 ) 


结合 多 统计 特征 与 单词 词 
2 相似 ， 唯 一 的 
判断 候选 情感 词 必须 为 形容 词 
的 操作 ， 和 否则 过 滤 该 单词 
足 三 种 统计 特征 ,因此 这 
结合 多 统计 特征 与 单词 词性 的 
为 形容 词 ， 而 "refuse" 是 动词 


为 ?cheap” 形 容 词 词性 ， 所 以 cheap 能 够 被 程序 提 


32.4 提取 结 
词典 HowNet 为 文本 情感 
含 9142 个 英文 评价 词语 , 本 文 


检测 上 述 提取 算法 的 效率 ， 标 准 词典 中 包含 的 单词 必须 在 


HowNet 和 语料库 中 同时 出 现 。 
XT 的 统计 结果 表明 结合 


HL. WX 6 所 示 ，’*luck’ 的 信息 
但 是 ， 由 于 "luck’ 的 词性 为 名 词 ， 不 满足 词性 
求 ，’Iluck’ 无 法 被 提取 。 根据 表 6 可 知 ， 单 词 xawful 的 词性 为 
容 词 ， 并 且 IGawe>0r4， 因 此 awful 


区 别 是 第 10 行 ， 不 仅 要 判断 


的 提取 算法 要 求 单 词 的 特征 值 大 
若 满足 条 件 则 将 单词 存 入 情感 词 
增益 均 大 于 /7， 因 此 该 单词 满 
要 


NS 


能 够 被 结 提取 。 
性 的 提取 算法 的 执行 过 程 与 算法 
7 的 取 值 ， 还 需要 
， 如 果 单 词 为 形容 词 则 继续 后 理 


。 由 表 6 可 知 ，’cheap’” 和 refuse’ 都 满 
个 单词 都 能 够 被 算法 2 


提取 .但 是 ， 
提取 算法 要 求 被 提取 的 单词 必须 
词性 ， 因 此 ’refuse’ 被 过 滤 ， 因 
HX o 


分 类 提供 了 丰富 的 资源 ， 其 中 包 
根据 HowNet 构造 标准 词典 用 于 


统计 特征 与 单词 词性 的 提取 算法 


具有 更 高 的 准确 率 ， 相 较 于 基 


确 率 平均 提高 36.8%， 而 与 基 


比 ， 准 确 率 最 大 提高 21.7% 。 
AT 
基于 单一 统计 特征 
准确 率 召回 率 


于 单一 统计 特征 的 提取 算法 ， 准 
于 单词 词性 的 情感 词 提 取 算 法 相 


基于 单一 统计 特征 的 提取 结 


结合 单一 统计 特征 与 词性 
准确 率 


APZ 


图 1(a) 展 示 了 基于 多 统计 
DI-D8 表示 根据 C_1~C_8 创 
标准 下 提取 的 单词 ， 至 少 满足 
的 准确 率 ， 而 当 八 种 特征 全 满 
率 。 图 1(b) 展 示 了 结合 多 统计 


其 构造 单词 向 量 ， 格 式 如 下 : 


Prefuse’ lf] 8 种 特征 值 为 


基于 多 统计 特征 的 提取 算法 相 
提取 结果 的 
取 结 果 的 准 


特征 提取 情感 词 的 结果 ， 横 坐标 
建 的 情感 词典 ， 用 于 存储 在 对 应 
一 种 特征 时 ， 提 取 结果 具有 最 低 
足 时 ， 提 取 结 果 具 有 最 高 的 ; 
特征 与 单词 词性 提取 情感 词 ， 与 
比 ， 至 少 满足 一 种 统计 特征 时 ， 


E 确 率 提高 了 41.996, 8 种 统计 特征 全 部 满足 时 提 
E 确 率 提 高 了 31.1%。 
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(a) 基于 多 统计 特征 的 提取 结果 (b) 结 合 多 统计 特征 与 单词 词性 的 提取 结果 
图 1 基于 多 统计 特征 的 情感 词 提 取 结 果 
表 8 单一 统计 特征 的 商品 评论 分 类 结果 (P 表示 准确 率 ,R 表示 召回 率 ) 
基于 单一 统计 特征 (a) 结合 单一 统计 特征 与 语 单词 词性 (b) 
朴素 贝 叶 斯 支持 向 量 机 决策 本 神经 网 络 随机 森林 朴素 贝 叶 斯 支持 向 量 机 决策 树 神经 网 络 随机 森林 
P R P R P R P R P R P R P R P R P R P R 
(96) (96) (99) (96) (96) (99) (96) (96) (99) (96) (96) (96) (96) (96) (99) (96) (96) (96) (96) (96) 
IG 85.6 85.6 83.8 83.8 80.3 80.3 81.5 81.5 81.5 81.5 71.2 70.5 70.6 69.5 70.7 69.6 70.3 69.3 69.9 69.8 
OR 86.4 86.4 85.5 85.5 79.5 79.5 81.5 80.2 83.3 83.3 71.4 70.7 70.5 69.5 71.1 70.2 70.2 69.4 70.6 69.8 
MI 86.3 86.2 85.4 85.4 TEX 79.7 77:9 TIa 84.3 84.3 71.4 70.7 70.5 69.5 70.7 70.2 70.7 69.7 70.7 69.9 
LPR 85.4 85.4 84.5 84.5 80.1 80.1 82.4 82.4 82.4 82.4 71.2 70.5 70.9 69.9 71.0 70.1 70.6 69.8 71.0 70.1 
CE 854 85.4 83.6 83.6 79.1 79.1 55.7 55.1 83.8 83.8 70.4 69.9 70.4 69.5 69.1 68.3 66.9 66.3 69.5 68.8 
CHI 85.5 85.5 84.6 84.6 79.5 79.5 83.4 83.1 82.5 82.5 70.5 69.9 70.7 69.8 70.7 69.7 70.3 69.5 70.7 69.9 
cc 87.1 87.1 85.4 85.4 79.6 79.5 75.8 75.8 83.9 83.9 71.4 70.8 70.5 69.5 71.1 70.2 69.5 68.8 70.6 69.8 
DD 85.0 85.0 84.6 84.6 78.6 78.6 82.1 80.5 82.8 82.8 70.5 69.9 70.7 69.8 70.7 69.7 70.3 69.5 70.7 69.9 
表 9 多 统计 特征 的 商品 评论 分 类 结果 (P 表示 准确 率 ，R 表示 召回 率 ) 
基于 多 统计 特征 (a) 结合 多 统计 特征 与 语 单词 词性 (a) 
朴素 贝 叶 斯 支持 向 量 机 决策 树 神经 网 络 随机 森林 朴素 贝 叶 斯 支持 向 量 机 决策 树 神经 网 络 随机 森林 
P R P R P R P R P R P R P R P R P R P R 
(99) (99) (9) (99) (99) (99) (96) (99) (99) (99) (99) (99) (99) (9/5) (96) (99) (96) (99) (96) (96) 
Cil 81.4 80.2 84.1 83.9 86.7 86.7 85.9 85.8 86.3 86.3 70.7 68.5 70.9 69.7 70.6 70.3 70.9 70.0 69.1 68.6 
c2 81.3 80.1 83.5 83.5 84.2 84.2 84.7 84.6 84.7 84.7 70.6 68.4 70.7 69.5 70.7 70.4 70.7 69.4 70.2 69.5 
C3 80.8 79.6 83.5 83.3 84.3 84.2 84.7 84.5 85.0 85.0 70.5 68.3 714 69.8 70.8 70.5 69.3 70.5 69.9 
C4 81.0 79.8 83.9 83.7 84.5 84.5 85.1 85.0 85.0 85.0 70.6 68.4 71.0 69.7 70.8 70.6 69.4 70.4 69.7 
CS 80.6 79:3 84.1 84.0 83.9 83.9 85.2 85.1 84.8 84.8 70.7 68.5 71.0 69.8 70.3 70.8 69.5 70.5 69.7 
C6 79.9 78.5 83.5 83.4 82.2 82.2 84.4 84.3 84.2 84.2 70.4 68.1 71.2 70.0 70.7 70.4 69.0 70.7 70.0 
C7 79.8 78.4 83.4 83.5 82.5 82.4 84.7 84.7 83.5 83.5 70.4 68.1 71.2 70.0 70.7 70.4 69.0 70.7 70.0 
C8 79.8 78.4 84.1 84.0 82.8 82.8 85.0 84.9 83.4 83.4 70.2 67.8 71.1 70.2 70.0 71.1 69.9 70.9 70.1 
3.3 商品 评论 分 类 测试 3.3.1 基于 单一 统计 特征 的 商品 评论 分 类 
将 使 用 单一 特征 值 构造 的 情感 词典 和 结合 多 种 特征 构造 的 将 基于 单一 统计 特征 构造 的 情感 词典 用 于 商品 评论 分 类 测 
情感 词典 用 于 文本 分 类 测试 。 实 验 使 用 朴素 贝 叶 斯 aaive — 试 ， 并 以 单词 为 基础 构造 向 量 空间 模型 。Pang5 证 明 ， 在 文本 
Bayes)P020、 支 持 向 量 机 (support vector machine, SVM), wR — 向 量 中 使 用 0、1 表示 情感 词 具 有 更 好 的 效果 , 因此 该 实验 中 文 
树 (decision tree)??!, BP 神经 网 络 (BP neural network)P31 和 随机 本 向 量 的 格式 如 下 : 


森林 (random foresbDP4 五 种 算法 对 测试 文本 进行 情感 分 类 。 测试 . . 

K zi in PRA SvM, — [sig (wi). sig (w),,sig (wi) 

文本 同样 为 亚马逊 的 商品 评论 ， 其 中 积极 评论 997 条 ， 消 极 评 

论 999 条 ， 并 以 列表 的 形式 存放 测试 文本 。 使 用 数据 处 理工 其 中 :t 表示 情感 词典 中 单词 的 数量 ，w 表示 词典 中 编号 为 i 的 
Weka 提供 的 分 类 器 ， 并 使 用 10-fold cross-validation 进行 商品 单词 ， 若 wÆ TP PHRI, W sig(wi)=1， 否 则 sig(wi)=0。 

评论 分 类 测试 ， 每 种 分 类 算法 的 参数 均 为 Weka 提供 的 缺 省 参 — 332 基于 多 统计 特征 的 商品 评论 分 类 


数 。 将 基于 单词 词性 的 商品 评论 分 类 结果 作为 实验 的 基线 ， 上 基于 词典 D1~D8 对 商品 评论 进行 分 类 测试 , 该 实 基于 用 8 
述 五 种 分 类 器 的 测试 精度 依次 为 77.1%、74.5%、69.5%、63.0% ae 
和 76.3%。 者 述 了 以 统计 特征 为 基础 构造 文本 向 量 的 过 程 。 
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ChinaXiv 合 作 期 书 
录用 稿 nV 
NR Dene ^ 优 的 分 类 效果 。 结 合 多 统计 特征 与 单词 词性 的 文本 分 类 的 准确 
过 程 : 率 集中 分 布 在 区 间 69% 至 71% 内 ， 如 表 9(b) 所 示 。 
l. 创建 向 量 空间 列表 并 初始 化 为 空 ; 
2. for T € Lr do 4 实验 结果 分 析 
for (w.V,) € DI do 
: " Shed then 由 于 人 们 倾向 于 用 形容 词 表达 个 人 情感 ， 因 此 ， 与 基于 统 
adu TVv— w 
6. end if 计 特 征 的 情感 词 提取 算法 相 比 ， 基 于 单词 词性 的 情感 词 提 取 算 
o T 法 具有 更 高 的 精度 。 在 实际 的 语言 环境 中 ， 除 了 形容 词 ， 部 4 
" 将 向 量 VEEAZSIBIHRERUR, PAN EEEE 在 实际 的 语言 环境 中 ， 除 了 形容 词 ， 部 分 
9. end for 动词 副词 和 名 词 也 具有 表达 情感 的 能 力 , 例 如 , love’, ‘kindly’, 
Wü SHIRE “issue "等 , 上述 原因 使 得 基于 单词 词性 的 商品 评论 分 类 算法 的 


以 对 商品 评论 了 构造 本 向 量 为 例 ， 描 述 文本 数据 表达 的 准确 率 低 于 基于 单词 统计 特征 的 商品 评论 分 类 算法 。 结 合 统计 
体 细节 ， 构 造 过 程 采 用 的 情感 词典 为 Dl， 商品 评论 T 如 下 : 特征 与 词性 的 情感 词 提取 算法 要 求 被 提取 的 情感 词 既 要 满足 统 
“Very nice, sleek and works great. My grandkids talked me into it, 计 特 征 并 且 词 性 为 形容 词 ， 表 7 和 图 1 展示 的 提取 结果 表明 ， 

it's what they use in school. So far I love it.”" 其 中 ，’nice’、’great’ 该 提取 算法 的 准确 率 高 于 只 基于 单词 统计 特征 或 单词 词性 的 提 


ILR 


— 


和 ?love" 以 单词 向 量 的 形式 存储 在 D1 中 ， 其 向 量 表 示 如 下 : 取 算 法 。 通 过 表 8 可 知 ， 基 于 单一 统计 特征 的 商品 评论 分 类 测 
V, = (0.3661,0.8400,0.0152,0.8025,11.4454,0.0558, 21.8535,0.0258) 试 的 最 高 准确 率 为 87.1%， 而 结合 单一 统计 特征 与 单词 词性 的 
V, „ 7 (4.6086,1.5835,0.0974,1.2672,21.7177,3.2030,76.6667,0.1569) 商品 评论 分 类 测试 的 最 高 准确 率 仅 为 71.499. 36 9 表明 ， 基 于 
V,,, =(5.0430,2.0303,0.0834,1.7679, 22.4717,2.3952,78.6123, 0.1289) 多 统计 特征 的 商品 评论 分 类 测试 的 最 佳 结 果 为 86.7%， 结 合 多 


遍历 词典 DT, 依次 读 取 单词 和 对 应 的 单词 向 量 , 检测 wE 统计 特征 与 单词 词性 的 商品 评论 分 类 的 最 高 准确 率 只 有 71.2%。 
T 是 否 成 立 ， 若 条 件 成 立 ， 则 记录 该 单词 和 单词 向 量 。 操 作 结 造成 上 述 现象 的 主要 原因 是 ， 结 合 统计 特征 与 词性 虽然 能 够 提 
AS: TO DI-('nice','great','love'j 。 根 据 3.4 n] All; sig(nice)-1 高 提取 单词 的 准确 率 ， 但 是 由 于 增加 了 提取 算法 的 限制 条 件 ， 


sig(great)-1. sig(love)-l. sig(w)-0, wED1 H we T. 得 到 Vr= 使 得 满足 要 求 的 单词 随 之 减少 ， 导 致 文本 情感 分 类 测试 中 情感 
Vnice* Vereat + ove， 最 终 ， 辽 的 向 量 表达 如 下 ; 词 的 数量 不 足 ， 从 而 降低 分 类 算法 的 精度 ， 如 “love"， 该 单词 
V, =(10.0177,4.4538,0.196,3.8376,55.6348,5.654,177.1325,0.3116) 满足 统计 特征 ， 但 由 于 其 词性 为 动词 ， 因 此 该 单词 无 法 被 系统 

3.3.3 结合 统计 特征 与 单词 词性 的 商品 评论 分 类 提取 。 
结合 单一 统计 特征 与 单词 词性 的 商品 评论 分 类 ， 以 单词 为 1(a) 表 明 ， 当 单词 满足 八 种 统计 特征 时 ， 即 在 标准 C_8 
基础 创建 向 量 空间 模型 , 文本 向 量 的 构造 方法 与 3.3.1 相同 ， 以 时 ， 基 于 多 统计 特征 的 情感 词 提取 算法 具有 最 高 的 精度 ， 当 单 
0、1 向 量 的 形式 表示 文本 向 量 。 词 至 少 满 足 一 种 统计 特征 时 ， 即 在 标准 C_7 时 ,提取 算 法 的 精 


结合 多 统计 特征 与 单词 词性 的 商品 评论 分 类 ， 以 8 种 统计 ” 度 最 低 。 由 表 9-(a) 可 知 , 基于 C_7 构造 的 情感 词典 在 商品 评论 
特征 构造 文本 的 向 量 表达 ， 尽 管 该 部 分 文本 向 量 的 构造 方法 与 ” 分 类 测试 中 具有 最 高 的 精度 ,而 基于 C S 构造 的 情感 词典 在 商 
3.32 相同 ， 但 是 由 于 情感 词 提取 算法 存在 差异 ， 因 此 构造 的 文 ”品评 论 分 类 测试 中 具有 最 低 的 精度 。 造 成 该 现象 的 原因 在 于 ， 
本 向 量 也 存在 差异 。 仍 以 3.3.2 中 的 商品 评论 为 例 , 基于 多 统计 于 提取 标准 C i 要 求 被 提取 的 单词 至 少 满足 i 种 统计 特征 ， 
特征 的 商品 评论 分 类 通过 “nice”“great* 和 “love’， 由 于 结合 多 ” 当 i 增加 时 ， 满 足 要 求 的 单词 也 随 之 减少 ， 候 选 词 情 感 词 列表 
统计 特征 与 单词 词性 的 商品 评论 分 类 只 采用 形容 词 ， 由 表 6 可 中 只 有 少量 单词 满足 标准 C_8, 从 而 造成 在 分 类 测试 中 词典 D8 
知 ， 该 算法 只 能 利用 “nice”“great’ 的 单词 向 量 构 造 评论 的 向 量 。 无 法 提供 足够 数量 的 情感 词 ， 降 低 分 类 器 的 准确 率 。 例 如 ， 

表达 。 最 终 ， 上 述 客 户 评论 的 向 量 表达 为 Vr Viicet Verear， 向 ‘cheap’ 在 商品 评论 中 该 单词 能 够 表达 客户 对 商品 价格 的 观点 ， 


Tta 


形式 如 下 : 在 基于 多 统计 特征 的 提取 实验 中 ， 该 单词 满足 三 种 特征 ， 因 此 
V; =(9.6516,3.6138, 0.1808,3.0351, 44.1894,5.5982,155.279,0.2858) 只 有 词典 DI-D3 包含 “cheap”， 当 使 用 这 些 词典 进行 商品 评论 

3.3.4 分 类 结果 分 类 时 , 可 能 会 遗漏 包含 “cheap 的 文本 , 影响 分 类 算法 的 效率 。 
表 8(a) 展 示 了 基于 单一 统计 特征 的 商品 评论 分 类 结果 ， 在 对 比 表 8(a) 与 表 9(a) 可 知 ， 在 朴素 贝 叶 斯 分 类 器 中 基于 单 
朴素 贝 叶 斯 算法 中 ， 基 于 相关 系数 的 商品 评论 分 类 算法 具 最 有 统计 特征 的 商品 评论 分 类 算法 优 于 基于 多 统计 特征 的 文本 情 
最 高 的 精度 ， 其 准确 率 为 87.1%。 在 BP- 神 经 网 络 中 , 基于 交叉 。 感 分 类 算法 ， 而 在 另外 四 种 分 类 器 中 ， 基 于 多 统计 特征 的 文本 
粒 的 商品 评论 分 类 算法 的 准确 率 只 有 55.7%。 表 8(b) 展 示 了 结 ”情感 分 类 算法 具有 更 高 的 精度 。 并 且 ， 在 多 统计 特征 的 商品 评 


合 单一 统计 特征 与 词性 的 商品 评论 分 类 结果 ， 测 试 结果 的 准确 。 论 分 类 实验 中 ， 基 于 8 种 统计 特征 创建 向 量 空 间 模 型 ， 与 传统 
率 集中 分 布 在 区 间 66% 至 72% 内 。 的 基于 单词 构造 向 量 空间 模型 的 方法 相 比 ， 该 方法 有 效 的 降低 
表 9(a) 描 述 了 基于 多 统计 特征 的 文本 情感 分 类 结果 ， 结 果 了 文本 向 量 的 维度 , 具有 隐 性 语义 空间 (LSA/SDV) 的 压缩 效果 ， 
表明 ， 当 单词 至 少 满足 一 种 统计 特 时 ， 所 有 分 类 算法 均 达 到 最 ”压缩 文本 向 量 可 以 有 效 减 小 数据 的 规模 ， 降 低 了 分 类 算法 的 空 
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间 和 时 间 复 杂 度 。 
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本 文选 取 了 8 种 在 自然 语言 处 理 中 常见 的 统计 特征 ， 并 玫 
究 它 们 在 情感 词 抽取 和 商品 评论 分 类 中 的 作用 。 实 验 结果 表明 ， 
基于 统计 特征 的 文本 情感 分 类 方法 具有 更 高 的 精度 。 在 基于 多 
统计 特征 的 商品 评论 分 类 实验 中 ， 以 8 种 统计 特征 为 基础 创建 
文本 的 向 量 空间 模型 ， 蔡 代 传统 的 文本 表示 方法 。 测 试 结果 
明 这 文本 表示 方法 在 保证 分 类 算法 准确 率 和 召回 率 的 前 提 下 ， 
有 效 的 降低 了 分 类 算法 的 时 间 和 空间 复杂 度 。 

今后 的 工作 将 改进 语句 拆 分 算法 ， 使 系统 可 以 挖掘 文本 中 
包含 的 网 络 用 语 ， 研 究 统计 特征 在 不 同 的 分 类 算法 中 的 权重 ， 
使 系统 能 够 根据 分 类 器 自动 为 对 应 的 统计 特征 赋予 相应 的 权重 
提高 文本 分 类 的 效率 。 
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